Linux常见的内存分析工具

您所在的位置：网站首页 › linux 内存占用排序 › Linux常见的内存分析工具

Linux常见的内存分析工具

#Linux常见的内存分析工具| 来源: 网络整理| 查看: 265

【性能分析工具】

首先来看一张图：

上图是Brendan Gregg 的一次性能分析的分享，这里面的所有工具都可以通过man来获得它的帮助文档，下问简单介绍介绍一下常规的用法：

▲ vmstat--虚拟内存统计

vmstat(VirtualMeomoryStatistics,虚拟内存统计) 是Linux中监控内存的常用工具,可对操作系统的虚拟内存、进程、CPU等的整体情况进行监视。

vmstat的常规用法：vmstat interval times即每隔interval秒采样一次，共采样times次，如果省略times,则一直采集数据，直到用户手动停止为止。简单举个例子：

可以使用ctrl+c停止vmstat采集数据。

第一行显示了系统自启动以来的平均值，第二行开始显示现在正在发生的情况，接下来的行会显示每5秒间隔发生了什么，每一列的含义在头部，如下所示：

▪ procs：r这一列显示了多少进程在等待cpu，b列显示多少进程正在不可中断的休眠（等待IO）。

▪ memory：swapd列显示了多少块被换出了磁盘（页面交换），剩下的列显示了多少块是空闲的（未被使用），多少块正在被用作缓冲区，以及多少正在被用作操作系统的缓存。

▪ swap：显示交换活动：每秒有多少块正在被换入（从磁盘）和换出（到磁盘）。

▪ io：显示了多少块从块设备读取（bi）和写出（bo）,通常反映了硬盘I/O。

▪ system：显示每秒中断(in)和上下文切换（cs）的数量。

▪ cpu：显示所有的cpu时间花费在各类操作的百分比，包括执行用户代码（非内核），执行系统代码（内核），空闲以及等待IO。

内存不足的表现：free memory急剧减少，回收buffer和cacher也无济于事，大量使用交换分区（swpd）,页面交换（swap）频繁，读写磁盘数量（io）增多，缺页中断（in）增多，上下文切换（cs）次数增多，等待IO的进程数（b）增多，大量CPU时间用于等待IO（wa）

▲iostat--用于报告中央处理器统计信息

iostat用于报告中央处理器（CPU）统计信息和整个系统、适配器、tty 设备、磁盘和 CD-ROM 的输入/输出统计信息，默认显示了与vmstat相同的cpu使用信息，使用以下命令显示扩展的设备统计：

第一行显示的是自系统启动以来的平均值，然后显示增量的平均值，每个设备一行。

常见linux的磁盘IO指标的缩写习惯：rq是request,r是read,w是write,qu是queue，sz是size,a是verage,tm是time,svc是service。

▪rrqm/s和wrqm/s：每秒合并的读和写请求，“合并的”意味着操作系统从队列中拿出多个逻辑请求合并为一个请求到实际磁盘。

▪r/s和w/s：每秒发送到设备的读和写请求数。

▪rsec/s和wsec/s：每秒读和写的扇区数。

▪avgrq –sz：请求的扇区数。

▪avgqu –sz：在设备队列中等待的请求数。

▪await：每个IO请求花费的时间。

▪svctm：实际请求（服务）时间。

▪%util：至少有一个活跃请求所占时间的百分比。

▲dstat--系统监控工具

dstat显示了cpu使用情况，磁盘io情况，网络发包情况和换页情况，输出是彩色的，可读性较强，相对于vmstat和iostat的输入更加详细且较为直观。在使用时，直接输入命令即可，当然也可以使用特定参数。

如下：dstat –cdlmnpsy

▲iotop--LINUX进程实时监控工具

iotop命令是专门显示硬盘IO的命令，界面风格类似top命令，可以显示IO负载具体是由哪个进程产生的。是一个用来监视磁盘I/O使用状况的top类工具，具有与top相似的UI，其中包括PID、用户、I/O、进程等相关信息。

可以以非交互的方式使用：iotop –bod interval，查看每个进程的I/O，可以使用pidstat，pidstat –d instat。

▲pidstat--监控系统资源情况

pidstat主要用于监控全部或指定进程占用系统资源的情况,如CPU,内存、设备IO、任务切换、线程等。

使用方法：pidstat –d interval；pidstat还可以用以统计CPU使用信息：pidstat –u interval；统计内存信息：Pidstat –r interval。

▲top

top命令的汇总区域显示了五个方面的系统性能信息：

1.负载：时间，登陆用户数，系统平均负载；

2.进程：运行，睡眠，停止，僵尸；

3.cpu:用户态，核心态，NICE,空闲，等待IO,中断等；

4.内存：总量，已用，空闲（系统角度），缓冲，缓存；

5.交换分区：总量，已用，空闲

任务区域默认显示：进程ID,有效用户，进程优先级，NICE值，进程使用的虚拟内存，物理内存和共享内存，进程状态，CPU占用率，内存占用率，累计CPU时间，进程命令行信息。

▲htop

htop 是Linux系统中的一个互动的进程查看器,一个文本模式的应用程序(在控制台或者X终端中),需要ncurses。

Htop可让用户交互式操作，支持颜色主题，可横向或纵向滚动浏览进程列表，并支持鼠标操作。

与top相比，htop有以下优点：

▪ 可以横向或者纵向滚动浏览进程列表，以便看到所有的进程和完整的命令行。

▪ 在启动上，比top更快。

▪ 杀进程时不需要输入进程号。

▪ htop支持鼠标操作。

▲mpstatmpstat 是Multiprocessor Statistics的缩写，是实时系统监控工具。其报告与CPU的一些统计信息，这些信息存放在/proc/stat文件中。在多CPUs系统里，其不但能查看所有CPU的平均状况信息，而且能够查看特定CPU的信息。常见用法：mpstat –P ALL interval times。

▲netstat

Netstat用于显示与IP、TCP、UDP和ICMP协议相关的统计数据，一般用于检验本机各端口的网络连接情况。

▲常见用法：

netstat –npl 可以查看你要打开的端口是否已经打开。

netstat –rn 打印路由表信息。

netstat –in 提供系统上的接口信息，打印每个接口的MTU,输入分组数，输入错误，输出分组数，输出错误，冲突以及当前的输出队列的长度。

▲ps--显示当前进程的状态

ps参数太多，具体使用方法可以参考man ps，常用的方法：ps aux #hsserver；ps –ef |grep #hundsun

▪ 杀掉某一程序的方法：ps aux | grep mysqld | grep –v grep | awk ‘{print $2 }’ xargs kill -9

▪ 杀掉僵尸进程：ps –eal | awk ‘{if ($2 == “Z”){print $4}}’ | xargs kill -9

▲strace

跟踪程序执行过程中产生的系统调用及接收到的信号，帮助分析程序或命令执行中遇到的异常情况。

举例：查看mysqld在linux上加载哪种配置文件，可以通过运行下面的命令：strace –e stat64 mysqld –print –defaults > /dev/null

▲uptime

能够打印系统总共运行了多长时间和系统的平均负载，uptime命令最后输出的三个数字的含义分别是1分钟，5分钟，15分钟内系统的平均负荷。

▲lsof

lsof(list open files)是一个列出当前系统打开文件的工具。通过lsof工具能够查看这个列表对系统检测及排错，常见的用法：

查看文件系统阻塞 lsof /boot

查看端口号被哪个进程占用 lsof -i : 3306

查看用户打开哪些文件 lsof –u username

查看进程打开哪些文件 lsof –p 4838

查看远程已打开的网络链接 lsof –i @192.168.34.128

▲perf

perf是Linux kernel自带的系统性能优化工具。优势在于与Linux Kernel的紧密结合，它可以最先应用到加入Kernel的new feature，用于查看热点函数，查看cashe miss的比率，从而帮助开发者来优化程序性能。

性能调优工具如 perf，Oprofile 等的基本原理都是对被监测对象进行采样，最简单的情形是根据 tick 中断进行采样，即在 tick 中断内触发采样点，在采样点里判断程序当时的上下文。假如一个程序 90% 的时间都花费在函数 foo() 上，那么 90% 的采样点都应该落在函数 foo() 的上下文中。运气不可捉摸，但我想只要采样频率足够高，采样时间足够长，那么以上推论就比较可靠。因此，通过 tick 触发采样，我们便可以了解程序中哪些地方最耗时间，从而重点分析。

想要更深的了解本工具可以参考：http://blog.csdn.net/trochiluses/article/details/10261339

汇总：结合以上常用的性能测试命令并联系文初的性能分析工具的图，就可以初步了解到性能分析过程中哪个方面的性能使用哪方面的工具（命令）。

【常用的性能测试工具】

熟练并精通了第二部分的性能分析命令工具，引入几个性能测试的工具，介绍之前先简单了解几个性能测试工具：

▪ perf_events: 一款随 Linux 内核代码一同发布和维护的性能诊断工具，由内核社区维护和发展。Perf 不仅可以用于应用程序的性能统计分析，也可以应用于内核代码的性能统计和分析。

更多参考：http://blog.sina.com.cn/s/blog_98822316010122ex.html。

▪ eBPF tools: 一款使用bcc进行的性能追踪的工具,eBPF map可以使用定制的eBPF程序被广泛应用于内核调优方面，也可以读取用户级的异步代码。重要的是这个外部的数据可以在用户空间管理。这个k-v格式的map数据体是通过在用户空间调用bpf系统调用创建、添加、删除等操作管理的。more: http://blog.csdn.net/ljy1988123/article/details/50444693。

▪ perf-tools: 一款基于 perf_events (perf) 和 ftrace 的Linux性能分析调优工具集。Perf-Tools 依赖库少，使用简单。支持Linux 3.2 及以上内核版本。more: https://github.com/brendangregg/perf-tools。

▪ bcc(BPF Compiler Collection): 一款使用eBPF的perf性能分析工具。一个用于创建高效的内核跟踪和操作程序的工具包，包括几个有用的工具和示例。利用扩展的BPF（伯克利数据包过滤器），正式称为eBPF，一个新的功能，首先被添加到Linux 3.15。多用途需要Linux 4.1以上BCC。

更多参考：https://github.com/iovisor/bcc#tools。

▪ ktap: 一种新型的linux脚本动态性能跟踪工具。允许用户跟踪Linux内核动态。ktap是设计给具有互操作性，允许用户调整操作的见解，排除故障和延长内核和应用程序。它类似于Linux和Solaris DTrace SystemTap。更多参考： https://github.com/ktap/ktap。

▪ Flame Graphs:是一款使用perf,system tap,ktap可视化的图形软件，允许最频繁的代码路径快速准确地识别，可以是使用github.com/brendangregg/flamegraph中的开发源代码的程序生成。

更多参考：http://www.brendangregg.com/flamegraphs.html。

一、 Linux observability tools | Linux 性能观测工具

二、Linux Performance static, benchmarking, tuning Tools | Linux 静态、性能测评、调优工具（3款共3图）

三、Linux observability Tools:sar, perf-tools, bcc/BPF | linux性能观测工具(sar, perf-tools, bcc/BPF)

四、observability + static + perf-tools/bcc 总结以上图片

更多参考: http://www.brendangregg.com/linuxperf.html

问题分析 2.1. CPU过高分析 1）使用TOP命令查看CPU、内存使用状态可以发现CPU占用主要分为两部分，一部分为系统内核空间占用CPU百分比，一部分为用户空间占用CPU百分比。其中CPU状态中标示id的为空闲CPU百分比。当空闲CPU百分比越低，说明CPU占用率越高。 2）初步分析可以发现其中主要占用CPU的进程为java子进程jerrySsh服务（用户访问资源使用的监听服务），在用户量不大的情况下，CPU消耗资源很大。根据研发反馈字符网关设定的最大访问量可达到500/台，目前字符网关的资源使用现状无法满足设定的要求。 ● 分析手段目前针对Linux下java进程占用CPU高的分析手段主要为使用linux命令查出高CPU使用的进程，前分析其是由于进程原因还是系统原因，在分析出为进程消耗过高CPU后列出占用CPU高和占用时间最长的线程并使用jdk自带的jstack工具进行分析CPU使用分析分析过程：根据top命令，发现PID为13033的Java进程占用CPU %id 50%以上，占用CPU过高找到该进程后，首先显示线程列表,并按照CPU占用高的线程排序，命令为：ps mp 13033 -o THREAD,tid,time|sort -rn -k 2 找到了耗时最高的线程28358，占用CPU时间达8分多钟。将需要的线程ID转换为16进制格式，命令为：printf "%x\n" 28358 例如为：b0d 最后打印线程的堆栈信息：jstack 2829|grep b0d -A 30 2.2. 内存使用分析在linux的内存分配机制中，系统优先使用物理内存，当物理内存还有空闲，表示还够用时，不会释放其占用内存，即使占用内存的程序已经被关闭了，该程序所占用的内存用来做缓存使用，对于开启过的程序、或是读取刚存取过得数据会比较快，因此查看目前进程正在实际被使用的内存（used-buffers-cache），也可以认为如果交换分区（swap）没有大量使用，物理内存（mem）还是够用的，只有物理内存（mem）被当前进程实际占用完（没有了buffers和cache），才会使用到交换分区（swap）。但是从代码的角度，目前研发人员主要关注java.lang.OutOfMemoryError: Java heap space异常，减少不必要的对象创建，同时避免内存泄漏，所以分析代码才是我们接下来要做的主要工作；以下为字符网关分析内存占用的故障排查过程： ● 分析手段 top命令：Linux命令。可以查看实时的内存使用情况。 jmap -histo:live [pid]，然后分析具体的对象数目和占用内存大小，从而定位代码。 jmap -dump:live,format=b,file=xxx.xxx [pid]，然后利用MAT工具分析是否存在内存泄漏。 3. 总结分析手段 ● 分析CPU占用的方法和手段： top命令：可以查看实时的CPU使用情况。 ps -ef命令：可以查看进程以及进程中线程的当前CPU使用情况以及属于当前状态的采样数据。 jstack：Java提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码，以及是否死锁等等。 pstack：Linux命令。可以查看某个进程的当前线程栈运行情况 ● 分析内存性能的方法和技巧： top命令：可以查看实时的内存使用情况。 jmap -histo:live [pid]，然后分析具体的对象数目和占用内存大小，从而定位代码。 jmap -dump:live,format=b,file=xxx.xxx [pid]，然后利用MAT工具分析是否存在内存泄漏等等。---------------------作者：S-Gavin源地址：https://www.cnblogs.com/zwh-Seeking/articles/11157399.html著作权归作者@S-Gavin所有。商业转载请联系作者获得授权，非商业转载请注明出处!!!

Linux系统中CPU占用率较高问题排查思路与解决方法

CPU利用率。根据经验来看，用户空间进程占用CPU比例在 65-70%之间，内核(系统)CPU比例在30%-35%之间，空闲比例在0%-5%之间。一般不能超过这个比例，超过这个比例，系统性能就会降低，平均负载升高，这点将会在下面的测试中看到。进程上下文切换。上下文切换和CPU利用率应该联系起来，如果CPU利用率低，那么上下文切换稍高点也能接受。上下文切换也是需要消耗CPU资源的，频繁的切换必将使得CPU利用率升高。运行队列中等待运行的进程数。每个CPU核心中等待处理的进程数不应该超过3个线程/进程。如4核心的机器，那么队列的最大值应该不超过12个。对于CPU过载问题通常使用以下两种方式即可快速定位(不能涵盖所有特殊情况，请作为其中的参考排查思路)：一、排查分析方法一(针对JAVA应用)：

第一步：使用

top命令，然后按shift+p按照CPU排序

找到占用CPU过高的进程的pid

第二步：使用

top -H -p [进程id]

找到进程中消耗资源最高的线程的id

第三步：使用

echo 'obase=16;[线程id]' | bc或者printf "%x\n" [线程id]

将线程id转换为16进制(字母要小写)

bc是linux的计算器命令

第四步(此步骤可以和相对应的java开发进行一起排查)：执行

jstack [进程id] |grep -A 10 [线程id的16进制]”

查看线程状态信息

二、kswapd0 进程占用 CPU 较高操作系统都用分页机制来管理物理内存，操作系统将磁盘的一部分划出来作为虚拟内存，由于内存的速度要比磁盘快得多，所以操作系统要按照某种换页机制将不需要的页面换到磁盘中，将需要的页面调到内存中，由于内存持续不足，这个换页动作持续进行，kswapd0 是虚拟内存管理中负责换页的，当服务器内存不足的时候 kswapd0 会执行换页操作，这个换页操作是十分消耗主机 CPU 资源的。如果通过 top 发现该进程持续处于非睡眠状态，且运行时间较长，可以初步判定系统在持续的进行换页操作，可以将问题转向内存不足的原因来排查。

问题描述：kswapd0 进程占用了系统大量 CPU 资源。处理办法：Linux 系统通过分页机制管理内存的同时，将磁盘的一部分划出来作为虚拟内存。而 kswapd0 是 Linux 系统虚拟内存管理中负责换页的进程。当系统内存不足时，kswapd0 会频繁的进行换页操作。而由于换页操作非常消耗 CPU 资源，所以会导致该进程持续占用较高 CPU 资源。如果通过 top 等监控发现 kswapd0 进程持续处于非睡眠状态，且运行时间较长并持续占用较高 CPU 资源，则通常是由于系统在持续的进行换页操作所致。则可以通过 free 、ps 等指令进一步查询系统及系统内进程的内存占用情况，做进一步排查分析。

【本文地址】

Linux常见的内存分析工具

Linux常见的内存分析工具

今日新闻

推荐新闻